package com.terren.spider.core.html.scheme.impl;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

import com.terren.spider.entity.core.Entry;

import us.codecraft.webmagic.Page;

public class SinablogScheme extends BasicCustomScheme{

	@Override
	public Set<String> findHelpPaginationUrl(Page page, Entry entry) {
		List<String> pgList = new ArrayList<String>();// 存放分页list
		boolean flag = false;
		List<String> pageUrls = page.getHtml().$("#_function_code_page").links().all();
		String nextUrl = page.getHtml().$("a[title=下一页]","href").get();
		if (nextUrl != null) {//抓【下一页】链接
			pgList.add("http://search.sina.com.cn"+nextUrl);
		}
		String upUrl = page.getHtml().$("a[title=上一页]","href").get();
		if (upUrl != null) {//包含上一页或者下一页链接
			flag = true;
		}
		if (!flag) {//没有上一页链接也没有下一页链接 ，取全部
			pgList.addAll(pageUrls);
		}
		//pageUrls.addAll(pageUrls);
		Set<String> resultSet = new HashSet<>();
		resultSet.addAll(pgList);
		return resultSet;
	}	

}
